25th February 2011
This overview presentation is two years old, but still a highly valuable resource: modules and tools mentioned are alive and useful.
I think this is the second presentation by Giovanni I’m embedding (first one being about GNU/make for bioinformatics).
Posted in Bioinformatics, Links, Python, Software | No Comments »
16th November 2010
Imagine you need to get a few lines from a group of files with missing identifier mappings. I have a bunch of files with content similar to this one:
ENSRNOG00000018677 1368832_at 25233
ENSRNOG00000002079 1369102_at 25272
ENSRNOG00000043451 25353
ENSRNOG00000001527 1388013_at 25408
ENSRNOG00000007390 1389538_at 25493
In the example above I need ’25353′, which does not have corresponding affy_probeset_id in the 2nd column.
It is clear how to do that:
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}'
This outputs a column of required IDs (EntrezGene in this example):
116720
679845
309295
364867
298220
298221
25353
However, I need these IDs as a comma-separated list, not as newline-separated list.
There are several ways to achieve the desired result (only the last pipe commands differ):
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}' | gawk '$1=$1' ORS=', '
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}' | tr '\n' ','
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}' | sed ':a;N;$!ba;s/\n/, /g'
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}' | sed ':q;N;s/\n/, /g;t q'
sort -u *_affy_ensembl.txt | grep -v '_at' | awk '{print $2}' | paste -s -d ","
These solutions differ in efficiency and (slightly) in output. sed will read all the input into its buffer to replace newlines with other separators, so it might not be best for large files. tr might be the most efficient, but I haven’t tested that. paste will re-use delimiters, so you cannot really get comma-space “, ” separation with it.
Sources: linuxquestions 1 (explains used sed commands), linuxquestions 2, nixcraft.
Posted in *nix, Bioinformatics, how-to, Notepad, Software | 2 Comments »
5th November 2010
Superimposing gene expression data onto pathways from databases is a common task in the final steps of microarray data analysis – that is, biological interpretation and results discussion.
I have found many tools which claim to facilitate this procedure. Some of them are reviewed below (in no specific order).
Read the rest of this entry »
Posted in Bioinformatics, Links, Software | No Comments »
27th October 2010
- Install the annotationTools R package:
source(“http://bioconductor.org/biocLite.R”)
biocLite(“annotationTools”) - Download full HomoloGene data file from ftp://ftp.ncbi.nlm.nih.gov/pub/HomoloGene/current
- library(annotationTools)
- homologene = read.delim(“homologene.data”, header=FALSE)
- mygenes = read.table(“file with one entrez ID of the source organism per line.txt”)
- getHOMOLOG(unlist(mygenes), taxonomy_ID_of_target_organism, homologene) [alternatively, wrap the call to getHOMOLOG into unlist to get a vector]
It might be easier to achieve the same results with a Perl script calling NCBI’s e-utils.
Posted in Bioinformatics, how-to, Notepad | 2 Comments »
14th October 2010
Nature published the said survey based on responses of over 10000 employees in science. It has lots of multi-axis data to explore, and some major trends are discussed in the special report. Highly recommended for anyone considering science career changes.
Posted in Links, Science | No Comments »
26th May 2010
Викладену нижче влаÑну позицію вважаю найправильнішою (Ñ– викориÑтовую з 2007 року).
ÐŸÑ€ÐµÑ„Ñ–ÐºÑ Ð¼Ñ–ÐºÑ€Ð¾ в українÑькій мові Ñ”, Ñ– позначає певну кратніÑÑ‚ÑŒ (10-6) чиÑлової величини (а також проÑто щоÑÑŒ маленьке) – тому його можна зберегти при перекладі першої половини Ñкладного Ñлова microarray. Цей Ð¿Ñ€ÐµÑ„Ñ–ÐºÑ Ñ‚Ð°ÐºÐ¾Ð¶ входить до ÑиÑтеми одиниць СІ.
Рот Ñлова арей (Ñк вживають деÑкі автори) в українÑькій мові немає. Також немає ÑенÑу його запозичувати, оÑкільки Ñ–Ñнують переклади (Ñлова-еквіваленти). Один зі Ñловників пропонує такі варіанти перекладу Ñлова array українÑькою (у різних контекÑтах):
- множина, набір, комплект
- розташуваннÑ, решітка, Ñітка
- маÑив, ÑпиÑок, поле, Ñ€Ñд
- решітка даних
- маÑив даних
- матрицÑ
Я пропоную викориÑтовувати термін мікромаÑив (та похідний від нього мікромаÑив-екÑперимент). Цей термін має перевагу над вживаним у РоÑійÑькій Федерації “микрочип-ÑкÑпериментом”, оÑкільки “мікрочіп” або проÑто “чіп” – це уÑталений термін електроніки, де він позначає кремнієвий електронний елемент з виÑоким Ñтупенем упаковки напівпровідників; натоміÑÑ‚ÑŒ “маÑив” – це Ñ– набір/ÑпиÑок [даних], и [двомірна] Ð¼Ð°Ñ‚Ñ€Ð¸Ñ†Ñ [даних/ознак/зондів/будь-чого]. Відповідно, мікромаÑив – це маленька Ð¼Ð°Ñ‚Ñ€Ð¸Ñ†Ñ Ð°Ð±Ð¾ маленький набір [олігонуклеотидних/кДÐК зондів]. Додатковим аргументом проти викориÑÑ‚Ð°Ð½Ð½Ñ Ñлова чіп вважаю його запозиченіÑÑ‚ÑŒ.
ВикориÑÑ‚Ð°Ð½Ð½Ñ Ñ–Ð½ÑˆÐ¸Ñ… варіантів перекладу Ñлова array або не відповідає Ñуті об’єкту, або має неоднозначне трактуваннÑ. Ðаприклад, мікроматрицÑ: в молекулÑрній біології Ð¼Ð°Ñ‚Ñ€Ð¸Ñ†Ñ – це ланцюг ДÐК, з Ñкого іде Ñинтез, а в ширшому значенні – взагалі будь-Ñка модель, з Ñкої виготовлÑÑŽÑ‚ÑŒ зразки. (Звичайно, Ñлово Ð¼Ð°Ñ‚Ñ€Ð¸Ñ†Ñ Ñ‚Ð°ÐºÐ¾Ð¶ Ñ” Ñинонімом Ñлова маÑив у значенні двомірний маÑив / двомірна матрицÑ, але Ñлово маÑив не має – наÑкільки мені відомо – альтернативних трактувань у молекулÑрній біології). РозглÑдати інші варіанти перекладу Ñлова array не вважаю за потрібне, оÑкільки вони ще менш вдалі за матрицю.
Таким чином, вірним перекладом терміну microarray Ñ” Ñлово мікромаÑив.
Posted in Misc, Science, Ukraine | No Comments »